摘要:如何用有限的规则,生成无限的世界?这是游戏设计的终极问题。也可能是人工智能的终极问题。,第四章:SimCity 的"两股力量"在 AI 时代的回响 鲁滨逊漂流记读书笔记第四章

⚠️ 未经作者授权 禁止转载
自上而下 vs 自下而上 — 老 难题,新战场
读完第三章,你可能已经注意到了一个有趣的事实:Marble、Genie、Muse、Oasis 这四个项目虽然都被归类为" 全球模型",但它们生成 全球的方式截然不同。
Marble 先建立 3D 空间结构,再往结构里填充视觉细节 —— 先有骨架,后有皮肤。Oasis 则相反,它完全不建构任何显式的 3D 结构,而是从视频数据中学到的"视觉记忆"出发,逐帧"幻想"出下一个画面 —— 没有骨架,只有一连串不断涌现的皮肤。如果你还记得第二章的内容,你会发现这个分歧看起来异常眼熟。这不就是 Forrester 和 Conway 的翻版吗?Marble 的路线更像 体系动力学 —— 自上而下,先定义结构(3D 空间、几何关系、物体的拓扑位置), 接着在这个结构上生成细节。李飞飞团队明确指出,当前主流的 AI 架构将数据序列化为 1D 或 2D 序列,使简单的空间任务变得不必要地困难,需要原生的 3D 或 4D 感知架构来解决。这本质上是在说:你不能只靠从视频中 进修" 全球看起来是 何样"来 领会 全球,你需要显式地表征空间结构。
Oasis 和 Genie 的路线则更像元胞自动机 —— 自下而上,不预设宏观结构,而是让模型从海量像素级的局部模式中自己"涌现"出对 全球的 领会。Genie 从视频数据中学会了"如果我向前走,眼前的景象应该 如何变化";Oasis 从 Minecraft 录像中学会了"如果我挥锄头砸向方块,方块应该碎裂消失"。没有人告诉它们 3D 空间的几何 制度,但它们通过看够了足够多的例子,自己在权重里编码了某种隐式的空间 领会。
Muse 则像 Wright 在 SimCity 中做的那样,试图把两者焊在一起。它同时建模视觉帧和人类控制器输入 —— 既 进修 全球的视觉规律(自下而上),又 进修人类行为的因果模式(自上而下的行为逻辑)。
三十七年前 Wright 面对的那个核心设计张力,在 AI 全球模型中以全新的形式重现了。而且,当年那个张力带来的权衡取舍,今天同样存在 —— 只是换了一套技术语言。自下而上的路线(Genie/Oasis)有天然的泛化优势: 由于不依赖显式的 3D 结构,模型可以生成训练数据中从未出现过的全新场景。Genie 2 展示了出色的分布外泛化能力,甚至能把概念画和手绘草图变成可交互的环境。但代价是一致性难以保证 —— Oasis 在玩家转头后会重新排列地形景观, 由于模型没有一个持久的 3D 全球表征来"记住"身后的 物品长 何样。它更像一个不断在做梦的大脑 —— 前方的梦境很鲜明,但你转过头再看,刚才的梦已经变了。自上而下的路线(Marble)则相反: 由于显式地构建了 3D 结构, 全球是持久且一致的 —— 你绕着一栋楼走一圈回来,它还在那里,跟你离开时 一致无二。Marble 生成的环境可 下面内容载、编辑、导出为标准格式。但代价是灵活性 —— 生成需要 时刻,不能像 Oasis 那样在你按下键盘的瞬间就"变"出前方的路。这不 一个"谁对谁错"的 难题。这 一个关于" 怎样表征 全球"的根本性分歧 —— 而且这个分歧可能永远不会彻底消失,只会在不同的技术阶段以不同的方式被折衷。如果你把 SimCity 的历史当作一面镜子,可以做出一个合理的预测:最终胜出的方案,大概率是某种融合。 就像 SimCity 把 体系动力学和元胞自动机焊在同一块电路板上一样,未来的 全球模型很可能会把显式的 3D 空间结构(提供一致性和可编辑性)与从数据中 进修的隐式物理直觉(提供泛化能力和涌现行为)结合在一起。事实上,这种融合已经开始出现。World Labs 的实验性项目 RTFM 就 一个信号 —— 它使用"空间锚定帧"(spatially-grounded frames)作为一种空间记忆,在实时生成的同时维持 全球的持久性。这本质上就是在自下而上的逐帧生成中嵌入了一层自上而下的空间结构 —— 一种 Wright 式的焊接。
当"可操作的类比"遇上 AI
第二章我们讨论了 Gingold 的一个核心论断:SimCity 的 价格不在于精确模拟城市,而在于提供一个"可操作的类比" —— 一个让人通过动手操作来建立直觉的简化模型。这个概念放到今天的 AI 全球模型语境下,会产生一些非常有趣的推论。推论一:今天的 全球模型,最大的 价格可能不在于"替代 Unreal Engine 做一款完整的 3A 游戏",而在于极大地降低了"看见一个 全球"的成本。在传统游戏开发中,"看见"一个关卡设计是否有趣,需要先经过数周甚至数月的资产制作、场景搭建和程序调试。设计师脑海中的创意必须穿过一条漫长的生产管道,才能变成一个可以走进去体验的空间。 全球模型把这个 经过压缩到了几秒钟。Genie 2 展示的一个关键能力是快速原型制作 —— 概念画和手绘草图可以直接变成可交互的环境,让设计师在创意流程的最早期就"走进"自己的想法。这不是替代了后面的精细制作,而是在整个流程的最前端插入了一个全新的环节:低成本的直觉验证。
这正是 SimCity 的"可操作的类比"在新时代的延伸。SimCity 让市长们用一个简化模型来验证自己的城市规划直觉; 全球模型让游戏设计师用一个AI生成的粗糙原型来验证自己的关卡设计直觉。两者的核心逻辑完全一致:先用一个不完美但可操作的简化版本来建立直觉, 接着再决定是否值得投入全量资源去打磨。推论二: 全球模型可能催生一种全新的"游戏设计语言"。传统游戏设计师的 职业语言是技术性的 —— 他们用 Blueprint 可视化脚本连接逻辑节点,用行为树定义 NPC 情形转移,用数值表格调整武器伤害和资源产出。这些工具精确且强大,但它们也形成了一道门槛:你必须学会"说引擎的语言"才能表达你的创意。 全球模型正在引入一种根本不同的设计语言: 天然语言。在 Project Genie 中,用户用文本和图片来描述他们想要的 全球。你不需要知道 Nanite 是 何、LOD 如何设置、碰撞体 如何画 —— 你只需要说"一座被暴雨笼罩的赛博朋克城市", 接着走进去看看是不是你想要的感觉。如果不是,改 几许词再来一次。
这种转变的意义,可能比表面看起来大得多。它意味着"设计一个游戏 全球"的能力不再被锁在技术专业人士手中。一个从未打开过 Unreal Editor 的小说家、一个只会画分镜的漫画家、一个有无数脑洞但不会写代码的玩家 —— 他们都有可能成为虚拟 全球的创作者。回想一下 SimCity 带来的最持久的影响:它被认为启发了一整代城市规划者、交通官员和地方政府官员,这些人在年轻时接触了这款游戏,后来选择了这些职业。SimCity 的力量不在于它 一个精确的规划工具,而在于它让一代人第一次拥有了对城市 体系的直觉 —— 接着其中一些人把这种直觉带进了 诚恳的城市。 全球模型有可能引发类似的效应:当" 创新一个虚拟 全球"的门槛从"数百人团队 + 数亿美元预算"降低到"一段文字描述 + 几秒钟等待"时,会有 几许人第一次发现自己原来有 创新 全球的直觉和欲望?其中又有 几许人会因此走上游戏设计、建筑设计或影视创作的道路?推论三:最深刻的影响可能不在游戏行业。Wright 的 SimCity 表面上是一款游戏,但它真正改变的是 大众 领会复杂 体系的方式。同样,AI 全球模型表面上是一种游戏开发技术,但它真正的影响半径可能远远超出游戏。DeepMind 将 Genie 3 视为通往 AGI 的关键垫脚石 —— 由于 全球模型使得训练 AI 智能体在无限 丰盛的模拟环境课程中成为可能。换句话说, 全球模型不只是"给人类玩的游戏 全球",它也是"给 AI 智能体训练的虚拟健身房"。
李飞飞描绘了一个更大的图景: 全球模型可以让外科医生在虚拟肠道中练习腹腔镜手术,让学生走进细胞内部观察生物学 经过。而微软的 Muse 团队已经在探索将 全球模型应用于工厂数字孪生和零售空间设计。如果把眼光放远, 全球模型可能成为人类 领会和操作复杂 体系的一种通用界面 —— 你想 领会气候变化?走进一个加速运行的地球模型。你想测试一个新的城市交通方案?在一个 AI 生成的城市缩影中跑一遍。你想训练一个机器人?让它在无限多样的虚拟环境中反复练习。这恰恰是 Maxis 当年"模拟一切"愿景的回响 —— 只不过当年的技术做不到,而今天的 AI 正在让它成为可能。从"建造 全球"到"培育 全球"
这一章的 最后,我想回到一个更哲学的层面。Wright 曾经用一个比喻来描述自己做游戏的方式:他把 SimCity 比作园艺 —— 由于你对一个活的有机体只有有限的控制力。你可以浇水、施肥、修剪枝叶,但你不能命令一朵花 何时候候开。你 一个园丁,不 一个建筑师。在传统游戏开发中,开发者更像建筑师。你绘制蓝图,你定义每一堵墙的位置,你决定 NPC 在第三幕第二场的第 47 秒说 何台词。 全球的每一个细节都在你的控制之下,也在你的 职责之内。AI 全球模型正在把游戏创作者推向"园丁"的那一端。当你用 Genie 生成一个 全球时,你不能精确控制每棵树的位置 —— 你只能通过调整提示词来"引导" 全球生长的 路线。当 Oasis 在你面前逐帧涌现一个 Minecraft 全球时,前方出现 何样的地形,连你自己也不完全知道。你给出了种子和土壤的条件,但生长是自发的。这是一种新的创作哲学。回想第二章 —— SimCity 之 因此 辉煌,不是 由于 Wright 精确控制了城市的每一个细节,而是 由于他设定了恰到好处的初始条件和基本 制度, 接着让 体系自己演化出 丰盛性。城市在玩家的操作和 体系的涌现之间找到了平衡,这种平衡产生了一种无法被完全预测的" 生活感"。未来的游戏创作者,可能需要学会同样的技能:不是去"建造"一个 全球的每一个角落,而是去"培育"一个 全球 —— 定义它的基本法则,设定它的初始条件, 接着在它自发生长的 经过中做一个 智慧的园丁。这需要一种全新的设计 思索。你不再问"这堵墙应该放在 何处",而是问" 何样的 制度会让有趣的墙自己长出来"。你不再写一个 NPC 的全部台词,而是定义它的性格和目标, 接着看它在与玩家的交互中自己说出 何。你不再雕刻一座山的每一处褶皱,而是描述这片大陆的地质条件, 接着看 AI 生成 何样的地貌。这是一种回归。 由于 诚恳的 全球 —— 我们生活的这个 全球 —— 就不是被"建造"出来的。它是被"培育"出来的。从大爆炸的初始条件出发,经过 138 亿年的涌现,长成了我们今天看到的样子。没有人手动放置了每一棵树、每一座山、每一条河流。简单的物理 制度反复迭代,产生了不可思议的复杂性。
从这个角度看,AI 全球模型不只是一种新技术。它是人类第一次真正逼近了那种"宇宙级"的 全球生成方式 —— 不是逐个像素地画出 全球,而是定义 制度, 接着让 全球自己长出来。Will Wright 在 1989 年用元胞自动机第一次触及了这个理念。三十七年后,神经网络正在把这个理念推到一个他当年无法想象的尺度。而 Gingold 的那本书,恰好帮我们看清了这条线索 —— 从 Forrester 的 150 个方程,到 Conway 的 4 条 制度,到 Wright 的 SimCity,到今天的 Genie 和 Marble —— 核心 难题始终如一: 怎样用有限的 制度,生成无限的 全球?这是游戏设计的终极 难题。也可能是人工智能的终极 难题。